МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ОБЛАСТНОЙ УНИВЕРСИТЕТ

Институт лингвистики и межкультурной коммуникации Лингвистический факультет Кафедра теоретической и прикладной лингвистики

Курсовая работа по автоматической обработке текстовых массивов

Advertisement
Узнайте стоимость Online
  • Тип работы
  • Часть диплома
  • Дипломная работа
  • Курсовая работа
  • Контрольная работа
  • Решение задач
  • Реферат
  • Научно - исследовательская работа
  • Отчет по практике
  • Ответы на билеты
  • Тест/экзамен online
  • Монография
  • Эссе
  • Доклад
  • Компьютерный набор текста
  • Компьютерный чертеж
  • Рецензия
  • Перевод
  • Репетитор
  • Бизнес-план
  • Конспекты
  • Проверка качества
  • Единоразовая консультация
  • Аспирантский реферат
  • Магистерская работа
  • Научная статья
  • Научный труд
  • Техническая редакция текста
  • Чертеж от руки
  • Диаграммы, таблицы
  • Презентация к защите
  • Тезисный план
  • Речь к диплому
  • Доработка заказа клиента
  • Отзыв на диплом
  • Публикация статьи в ВАК
  • Публикация статьи в Scopus
  • Дипломная работа MBA
  • Повышение оригинальности
  • Копирайтинг
  • Другое
Прикрепить файл
Рассчитать стоимость

«Программы, используемые при установлении авторства текста»

 

Содержание

Введение 3

1. Понятие атрибуции и проблемы установления авторства текстов 5

1.1Методы атрибуции 6

1.2.Атрибуция с развитием вычислительной техники. 9

1.3.Вывод к Главе 1 11

2.1 Лингвоанализатор 13

2.2. Атрибутор 14

2.1.2. Эксперимент 16

Эксперимент с ЛингвоАнализатором 16

Вывод к эксперименту с ЛингвоАнализатором 19

Эксперимент с Атрибутором 20

Вывод к эксперименту с Атрибутором 21

Результаты эксперимента 22

Вывод к главе 2 23

Заключение 27

Список используемой литературы 29

Внимание!

Это ОЗНАКОМИТЕЛЬНАЯ ВЕРСИЯ работы №3484, цена оригинала 500 рублей. Оформлена в программе Microsoft Word.

ОплатаКонтакты.

Введение

Каждый человек, который прочитал за свою жизнь множество литературных произведений, знает о том, что любой автор обладает индивидуальными чертами, индивидуальным складом речи. Русские легко смогут отличить склад речи Михаила Афанасьевича Булгакова от склада речи Антона Павловича Чехова, англичане легко отличат Оскара Уайльда от Льюиса Кэрролла. При переводе произведений на другой язык склад речи автора теряется и заменяется речью переводчика. Так, например, в русском языке слова «так как» и «потому что» легкозаменяемы, и при переводе на иностранный язык они преобразуются в одно и то же слово. То же со словами «кой» и «который», «иной» и «другой», «средь» и «среди» и т.д. И таких примеров можно привести множество. Все эти различия в речи проявляются машинально, неосознанно, обусловливаясь внешними и внутренними лингвистическими влияниями.

Ещё одним примером индивидуальности может служить частое употребление в речи того или иного человека вставных слов и конструкций. В письменной речи, конечно, такие нюансы сглаживаются и менее заметны, но всё же, серьёзные поправки в тексте производятся лишь в том случае, когда речь автора перестает быть литературной, поэтому даже окончательный вариант произведения не утрачивает индивидуальный склад речи писателя. Поэтому известного нам автора легко можно узнать по его работам.

Но опираться только на свою интуицию и чуткость невозможно, так как это не дает никаких доказательств и не имеет никакого научного объяснения, именно поэтому ученые решили найти способ, который смог бы точно определить автора текста. И тогда исследователи начали создавать различные методы, в результате которых сейчас есть программы, позволяющие установить автора текста без особых усилий.

Цель данной работы – осуществить обзор истории атрибуции и возникновения таких программ, их развитие с течением времени, рассмотреть их структуру, проанализировать способ работы и провести эксперимент, позволяющий показать значимость и необходимость таких программ.

1. Понятие атрибуции и проблемы установления авторства текстов

Атрибуция (от лат. attributio — приписывание) — установление авторов анонимных и псевдонимных научных и художественных произведений или же времени и места их создания.

До изобретения книгопечатания в середине XV века все литературные произведения хранились в виде рукописей, и авторов произведений установить было крайне сложно, так как атрибуция базировалась только на эмпирических знаниях и интуитивных выводах специалистов-знатоков. Почти каждое произведение имело сложную историю текста и целый ряд авторов. К примеру, существует множество версий об авторе величайшего памятника русской литературы XII века «Слово о полку Игореве».

Проблема атрибуции текстов не решилась и с появлением книгопечатания, так как зачастую произведения публиковались только после смерти автора, либо после прохождения цензуры и прочих изменений были опубликованы с неточностями и искажениями.

До сих пор существует масса гипотез, что пьесы Шекспира принадлежат совершенно другим авторам. За два с лишним века существования этих версий на «роль» автора этих пьес выдвигались самые разные претенденты — от Фрэнсиса Бэкона и Кристофера Марло до пирата Фрэнсиса Дрейка и королевы Елизаветы. Были версии, что под именем Шекспира скрывается целый коллектив авторов. Проблему авторства произведений Шекспира называют «Шекспировский вопрос», и проблема эта возникает из-за неточных данных, из-за отсутствия рукописей и необычной биографии писателя.

К спорным произведениям 20 века относят некоторые работы Антона Павловича Чехова, Владимира Владимировича Маяковского, Михаила Афанасьевича Булгакова и даже «Тихий Дон» Михаила Александровича Шолохова.

1.1 Методы атрибуции

В течение длительного периода времени в практике установления авторства текстов основными являлись историко-документальные и филологические методы исследования. Чтобы распознать авторские особенности отбирались внешние детали стиля автора, такие, как любимые слова, выражения, термины, словосочетания и прочее.

Применение математико-статистических методов началось в конце XIX века, в целях установления авторов античных произведений.

Первым российский ученым, который использовал математический аппарат для установления авторства, является Николай Александрович Морозов, который опубликовал в 1915 году свою работу «лингвистические спектры». Он рассмотрел несколько произведений, авторство которых приписывают Платону. И, в конце концов, различия в слоге разных произведений Платона оказались настолько велики, что приписать их одному автору было просто невозможно. И тогда ему в голову пришла идея сравнивать служебные или, как он называл, распорядительные частицы человеческой речи, а это, прежде всего, союзы, предлоги, местоимения и наречия, вставные слова, деепричастные и причастные окончания и даже сами знаки препинания он называл «попутными» распорядительными частицами. Морозов переводил их на графики, обозначая каждую распорядительную частицу на горизонтальной линии, а число её повторения на вертикальной, и сравнивал эти графики между собой у различных авторов. Такие графики он назвал «лингвистическими спектрами», а исследование по ним «лингвистическим анализом». Метод Н.А. Морозова стал основой многих исследований по лексическому составу языка писателей, но основой для полного достоверного стилистического исследования он служить не мог, так как не выходил за рамки лексического анализа и состава предложения. Критиками исследований Морозова стали Марков и Сеземан.

Необходимость отказа от субъективных методов атрибуции стала ощущаться больше всего в 50х-60х годах. В.В. Виноградов противопоставил субъективные и объективные принципы, которые применяются для установления автора текста. В Его работе группа объективных принципов выделялась в традиционной лингвистике, а объективным лингвостатистическим методам атрибуции отводилась только вспомогательная роль, так как ещё не существовало качественных методов установления авторства, основанных на формальном математическом аппарате в 60х годах XX века.

С 60х-70х годов XX века при описании индивидуального стиля автора стали применяться всё больше лингвоматематические методы, и благодаря этому стала накапливаться информация о свойствах единиц языка, и начал формироваться специальный научный аппарат атрибуции текстов. Труды А. Л. Гришунина, А. Якубайтис, А. Н. Скляревича, А. П. Василевича посвящены применению методов статистики к лексике и грамматике. Т.А. Якубайтис и А.Н.Скляревич провели типологию научно-технических, поэтических, драматических и других текстов по числу повторений какой-либо части речи. В ходе этой работы было сформировано утверждение о том, что достоверность авторства возрастает с ростом количества анализируемых признаков. Но данное утверждение не является истиной, зачастую при использовании большого количества коррелируемых признаков появляется так называемый «шум», который может искажать результаты или даже затруднить анализ.

Другое исследование лексики текста было проведено А.П. Василевичем, который опубликовал в 1981 году свои труды, посвященные изучению употребления цветонаименований. Основой анализа стали такие величины, как индекс лексической оригинальности — показатель отношения числа редких слов к числу часто употребляемых слов, индекс морфологической оригинальности – показатель отношения сложных слов к простым, и индекс насыщенности – показатель частоты употребления цветонаименований.

Использование подобных индексов для оценки структуры лексики текста было обусловлено тем, что исследователи стремились изобрести новый универсальный аппарат для объективного анализа лексики. Многие ученые стали разрабатывать новые оценки лексического состава, в котором присутствовали какие-либо недостатки, не рассматривая уже существующие решения в смежных областях знания, например в математике, где для описания объектов различной природы давно и успешно применяется теория распознавания образов.

Ю. Тулдава в 1987 году в своей работе обобщил опыт квантитативно-лингвистических исследований. Он назвал два основных принципа изучения лексики в квантитативном аспекте: принцип системности и вероятностно-статистический характер организации лексики и, кроме этого, Тулдава сформулировал идею о связи признаков, что явилось основой для разработки математического аппарата оценки связей между параметрами.

Одним из последних исследователей, рассматривающих атрибуцию текстов, основанных на лексическом анализе, является Д.Лаббе. Он предложил в 2001 году формулу вычисления «межтекстового расстояния» — определение меры близости и удаленности друг от друга анализов лексического состава двух текстов. В трудах Д.Лаббе лексический анализ текстов осуществляется при помощи автоматической процедуры морфологического анализа, где каждое слово представлено в виде записи из трех компонентов: словоформы, вокабулы и соответствующей части речи. Результаты межтекстового расстояния отображены в виде древовидной классификации. В результате исследований Д.Лаббе были обнаружены существенные недочеты методологического и статистико-вероятностного характера, и в первую очередь это связано с низкой достоверностью результатов атрибуции, которая опирается только на анализ лексического уровня. К примеру, при стилистическом анализе недостаточно для установления автора текста лишь изучения лексического уровня, оно должно быть дополнено информацией и о других уровнях языка, в первую очередь – о структуре синтаксиса анализируемого текста.

Исследования, посвященные квантитативно-структурному изучению на синтаксическом уровне языка, в отечественной лингвистике были осуществлены в 70е – 80е годы XX века. Интерес ученых к стилистическому анализу в синтаксическом аспекте обусловливался пониманием стиля как структурно-синтаксической категории. Помимо этого, использование синтаксического анализа подразумевает в себе комплексный подход к анализированию текста, так как признаки выделяются и на синтаксическом и на лексическом и на морфологическом и фразеологическом уровнях. Методы стилистической диагностики, которые основывались на анализе графов синтаксических связей, были представлены в работах И. П. Севбо (1981 год) и Г. Я. Мартыненко (1983 год). Диагностические параметры, которые предложила И. П. Севбо, а так же меры сложности, которые анализировал в своей работе Г. Я. Мартыненко, связаны с характеристиками именно предложения, а не текста, но именно анализ текста должен лежать в основе эффективного метода установления авторства.

1.2.Атрибуция с развитием вычислительной техники.

Проблема атрибуции давно перестала быть задачей одной только филологии. В настоящее время решение этой задачи связано со многими как прикладными историко-филологическими дисциплинами, так и с широким кругом естественно-технических наук, таких как статистика и теория вероятностей, теория коммуникаций и др. Не удивительно, что с развитием вычислительной техники, появилась возможность использовать более эффективные методы для решения этой проблемы, учитывая различные лингвостатистические параметры.

С конца 70-х годов XX века и до настоящего времени очень интенсивно развивается желание привлечь компьютерную обработку текстов при анализе текстов в разных аспектах: синтаксическом, лексическом, грамматическом.

И уже в 70х предпринимались первые попытки использовать вычислительную технику для решения задач установления авторства текстов. Но огромная сложность состояла в том, что большое количество времени тратилось на перевод текстов на язык ЭВМ, при этом применялось ручное кодирование исходных текстов в цепочки цифровых кодов, что изменяло представление результатов и затрудняло включение новых параметров исследования, а также затрудняло проверку полученных результатов. Так, в 1978 году группа норвежских ученых под руководством Гейра Хетсо начала анализировать 38 текстов, 26 из которых однозначно принадлежали Ф.М. Достоевскому, а остальные 12 статей были атрибутированы ему некоторыми учеными. Полгода понадобилось исследователям, чтобы перевести исходный материал на язык ЭВМ и чтобы получить необходимые частотные словари, причем кодирование предложений осуществлялось вручную, а диапазон исследования ограничивался 10 параметрами.

В исследованиях Л.В. Милова обработка текста заключалась в построении графов «сильных связей» по матрице частот парной встречаемости грамматических классов слов и производилась с использованием компьютерной программы, которая была разработана специально. Ю.В. Сидоров, И.О. Тарнопольская и Д.В. Хмелев в своих работах считали применение автоматической обработки данных, чтобы определить автора текста обязательным.

В Петрозаводском государственном университете с 1993 года под руководством профессора В. Н. Захарова создаются профессиональные базы данных для многоаспектного филологического анализа литературных текстов. Цель их работы – сделать лингвистический анализ литературных текстов автоматизированным, а так же провести статистический анализ текстов и, в частности, решить проблему установления авторства.

На первом этапе было решено остановиться на диалоговой компьютерной системе обработки литературных текстов из-за отсутствия надежных методик по определению синтаксических и грамматических параметров.

1.3.Вывод к Главе 1

На сегодняшний день автоматическая обработка текстов используется практически во всех современных исследованиях по установлению авторства текстов. Но желание исследователей использовать автоматическую стилистическую диагностику и автоматизированный поиск индивидуальных черт авторского стиля зачастую приводит к тому, что синтаксический уровень не используется. А происходит это из-за трудностей, связанных с поиском особенностей авторского стиля, а так же из-за сложностей обработки информации, содержащейся в этих особенностях. Зависимость стилистического анализа от компьютерной обработки данных приводит к упрощению методологической основы исследований, что, в итоге, делает методы установления авторства текста менее эффективными.

Таким образом, после обзора истории развития атрибуции можно выделить следующие тенденции:

• Переход от одномерных классификаций к многомерным;

• Всё большее широкое использование компьютерной обработки данных;

• Интерес исследователей к синтаксическому анализу для установления авторства текстов.

2.1 Лингвоанализатор

Рассмотрим первую программу, которая устанавливает авторов текстов жанра фантастики. Исследователем данной программы, которая называется «ЛингвоАнализатор», является Дмитрий Хмелев. На официальном сайте данной программы (www.rusf.ru) указано, что Дмитрий на момент создания программы являлся аспирантом кафедры теории вероятностей механико-математического факультета МГУ им. М.В. Ломоносова, а так же членом клуба выпускников МГУ и выпускником 18 физико-математического интерната при МГУ.

Разработчики этой программы утверждают, что ЛингвоАнализатор является первой в мире программой, которая с большой уверенностью устанавливает автора текста. Следует отметить, что ЛингвоАнализатор создан в 1999 году, и последние поправки вносились только в 2001 году.

Первая версия ЛингвоАнализатора доступна всем пользователям сети Интернет. Нужно только лишь вставить в специальное окошко скопированный текст (можно вводить вручную), и программа выдаст имена трех писателей, которые предположительно могли бы быть авторами данного текста. Но, кроме этого, анализатор работает и с загруженными файлами, т.е. пользователь может отправить в ЛингвоАнализатор для анализа любой файл с жёсткого диска компьютера.

«С помощью ЛингвоАнализатора, не читая текст, вы можете оценить его сходство с произведениями ваших любимых писателей. Кроме того, вы можете испробовать ваши собственные литературные опыты на близость к классикам жанра», — заявляет создатель программы.

Кроме имен писателей, ЛингвоАнализатор выдает три произведения каждого из авторов, которые близки данному тексту. Три автора выбираются из 128 писателей, база данных программы содержит информацию о 1357 текстах этих писателей, а общий объем текстов составляет порядка 180 Мб.

Данная программа не анализирует идеи, фабулу и содержание текста, а применяет методику атрибуции, которая опирается на математическую модель, где учтены именно формальные характеристики:

• Число служебных слов, таких как предлоги, союзы, частицы и т.д.;

• Морфемы слов (приставки, корни, суффиксы, окончания) и их последовательности;

• Сложность используемых грамматических конструкций;

• Словарь, используемый автором.

Как утверждает автор программы, данная модель прошла проверку на материале свыше восьмидесяти авторов с общим объемом произведений 128 Мб и доказала свою эффективность.

Кроме этого, авторы предупреждают пользователей, что программа лучше работает с большим объемом текстов, так как текст автора может уйти от своего привычного стиля.

2.2. Атрибутор

Программа «Атрибутор», разработанная под руководством О.В.Кукушкиной, представляет собой лингвистический процессор для автоматического сравнения и классификации текстов по параметрам индивидуального авторского стиля. Первая версия программы настроена для сравнения художественных прозаических текстов, в основном романов.

Задачей Атрибутора является обработка входящего текста с целью установления автора и выдачи наиболее близких по стилистике авторов, из числа тех авторов, которые входят в базу данных.

Предусмотрены три варианта вывода:

1. Скорее всего, этот текст принадлежит…(имя автора). Этот вывод означает, что в выборке имеются тексты присланного на исследования писателя.

2. Автора этого текста в нашей базе, по-видимому, нет. Этот вывод означает, что в тексте представлен индивидуальный стиль, который резко отличается от имеющихся в базе данных писателей.

3. Этот текст, по-видимому, не содержит индивидуальных стилистических черт. Ниже предоставляется список наиболее близких авторов в порядке убывания вероятности. Этот вывод означает, что присланный текст по стилистике не совпадает определенно ни с одним из имеющихся в выборке писателей и, в то же время, не имеет резких отличий сразу от нескольких из них.

Следует отметить, что программа не принимает тексты весом менее 20 Кб (6 страниц).

Авторы программы отмечают, что в базе Атрибутора переводов текстов иностранных авторов нет, так как, как уже упоминалось ранее, индивидуальные черты писателя пропадают, и появляются индивидуальные особенности переводчика, а многие произведения зарубежных авторов имеют несколько переводов.

Для того, чтобы атрибутировать текст, его нужно скопировать в окно атрибутора. После этого можно нажимать кнопку «Начать атрибуцию» и через некоторое время смотреть на полученный результат.

В Атрибуторе для проведения анализа в качестве индивидуальных черт авторского стиля используются трехбуквенные сочетания – триады. Обработку проходят все слова, за исключением имен собственных. Например, слово «собака» разбирается на следующие цепочки _со соб оба бак ака ка_ . Одинаковые триады суммируются, из собранных по тексту триад получается профиль, который является поисковым образом, характеризующим авторский стиль.

Автор пишет: «Конечно, использование буквосочетаний для решения стилеметрических проблем является паллиативом и, скорее, удачным инженерным полурешением, нежели предметно обусловленным приемом. В данном случае, для первой версии он-лайновой программы нам показалось привлекательной простота обработки, обуславливающая высокую скорость работы программы. Мы понимаем, что данная версия атрибутора является больше забавной игрушкой, чем инструментом, предназначенным для принятия ответственных решений, и собираемся в дальнейших версиях последовательно наращивать ее возможности».

В базу данных атрибутора попали в основном романы и повести отечественных писателей 19 — 20 веков. На данный момент она состоит из произведений 103 авторов. Пополнение осуществлялось за счет ресурсов известных электронных библиотек. Но, хочется отметить, что любой желающий может пополнить базу данных, прислав электронную книгу на почту разработчиков Атрибутора.

2.1.2. Эксперимент

Цель данного эксперимента – проверить, насколько эффективны данные программы, выделить все достоинства и недостатки работы ЛингвоАнализатора и Атрибутора.

Эксперимент с ЛингвоАнализатором

Поскольку ЛингвоАнализатор работает только с литературой в жанре фантастики, для начала остановимся на известнейшем романе «Мастер и Маргарита» Михаила Афанасьевича Булгакова.

Скопируем небольшой отрывок из первой главы и вставим его в специальное окно. Однако программа не выдала результата, объяснив это тем, что текст слишком мал для анализа:

Извините, предложенный текст слишком мал для сколь-нибудь вразумительного анализа его авторства. Попробуйте загрузить текст большего объема. Надеюсь, что для Вас эти комментарии окажутся полезными. Лично мне было интересно ознакомиться с этим текстом.

Искренне Ваш, ЛингвоАнализатор

Следуя советам ЛингвоАнализатора, скопируем всю первую главу романа. ЛингвоАнализатор отметил, что данный фрагмент тоже слишком мал, но результат всё же выдал:

Интегральные характеристики предложенного текста, в принципе, равноудалены от всех авторских эталонов. Однако, среди всей совокупности авторских эталонов один автор, разумеется, оказывается в используемой метрике ближе всех остальных, и именно на этом основании можно утверждать, что автор данного текста, пишет как писатель Михаил Булгаков. Последнее справедливо со сравнительно небольшой вероятностью 26%. Текст, если он действительно был создан этим писателем, похож на следующие его произведения:

26 Михаил Булгаков

Собачье Сердце

Мастер и Маргарита

Роковые яйца

ЛингвоАнализатор правильно распознал автора и предложил на выбор три варианта произведений, откуда мог быть взят этот фрагмент, и тоже не ошибся. Помимо этого, программа упомянула ещё двух авторов, которые близки к данному тексту: соавторы Аркадий Стругацкий и Борис Стругацкий (вероятность того, что анализируемый фрагмент был выбран из их работ – 8%) и их произведения «Сказка о Тройке», «Обитаемый остров», или соавторы Александр Тюрин и Александр Щеголев (5%) и их произведения «Индиана Джонс против третьего Рейха» и «Сеть».

После проведения первой части эксперимента, где использовалось достаточно известное произведение М.А.Булгакова, проведем вторую часть, использовав менее известное произведение этого же автора – повесть «Дьяволиада». Результат оказался немного иным: на первое место программа поставила Марианну Алферову (21%), на второе — Михаила Булгакова (18%) и на третье — Андрея Андронова (9%).

Теперь проведем такой же эксперимент, но с другим автором – Алексеем Николаевичем Толстым. Прежде чем провести этот эксперимент, я посмотрел,а какие произведения данного автора присутствуют в базе данных программы. Произведение там всего одно – «Аэлита». Для начала проверим, узнает ли программа автора этого произведения, для этого скопируем фрагмент из романа и вставим в окно программы, только на этот раз возьмем отрывок побольше – 35 стр. В результате ЛингвоАнализатор указал, что данный отрывок является достаточно объемным для корректного анализа и выдал такую информацию:

Согласно используемой интегральной оценке близости текста к авторским эталонам, автор данного текста пишет как писатель Алексей Толстой. Степень близости именно этого эталона оценивается в 69%. Таким образом, данный фрагмент сравнительно близок к предложенному авторскому эталону. Текст похож на следующие его эталонные произведения:

69% Алексей Толстой

Аэлита

ЛингвоАнализатор не ошибся и правильно установил автора, при том с достаточно высоким процентом вероятности — 69%, а также отметил, что Александр Етоев и Андрей Столяров обладают похожими авторскими эталонами, указав вероятность написания анализируемого фрагмента между ними на 5% и 1%.

А теперь усложним задачу и предложим для анализа такой же большой фрагмент из другого произведения А.Н.Толстого «Гиперболоид инженера Гарина». В результате, программа выдала такой вывод:

Интегральные характеристики предложенного текста, в принципе, равноудалены от всех авторских эталонов. Однако, среди всей совокупности авторских эталонов один автор, разумеется, оказывается в используемой метрике ближе всех остальных, и именно на этом основании можно утверждать, что автор данного текста, пишет как писатель Геннадий Мельников. Последнее справедливо со сравнительно небольшой вероятностью 29%. Текст, если он действительно был создан этим писателем, похож на следующие его произведения:

29% Геннадий Мельников

Рефлекс цели

Воспоминание большой реки

Гром и молния

На втором месте по вероятности написания данного текста оказался Александр Шалимов (20%), а на третьем Аркадий и Борис Стругацкие. Как мы видим, Алексея Николаевича Толстого тут и вовсе нет. Отсюда можно сделать вывод, что программа работает не всегда корректно, и вероятность ошибки достаточно высока.

Вывод к эксперименту с ЛингвоАнализатором

В целом, после проведения эксперимента стало ясно, что ЛингвоАнализатор не всегда правильно идентифицирует автора текста, точнее, он устанавливает писателей произведений, которые есть в базе данных, а если произведения там нет, то программа допускает ошибку .

Таким образом, к достоинствам программы можно отнести следующие пункты:

• анализатор советует авторов и литературу, схожую по стилю написания с рассматриваемой;

• после каждого анализа заполняется анкета, и создателю проекта видна статистика правильных и неправильных результатов программы;

• подробный анализ, приведена процентная статистика установления авторства;

• программа достаточно легка в управлении, не требует каких-то специальных навыков и знаний;

• вежливая форма обращения.

Но, стоит отметить, что программа имеет и ряд минусов:

• требуется слишком большой размер текста;

• непривлекательный интерфейс;

• программа не обновлялась с 2001 года, соответственно база писателей не пополняется;

• программа анализирует только лишь тексты из жанра Фантастики.

• Правильно устанавливает авторов только тех произведений, которые есть в базе данных.

Эксперимент с Атрибутором

Для возможности в конце эксперимента сравнить полученные результаты двух программ, возьмем всё тот же текст М.А.Булгакова «Мастер и Маргарита», который ранее использовался в ЛингвоАнализаторе, и вставим в окно Атрибутора. Текст должен весить не менее 20 Кб, поэтому скопируем всю первую главу. Отметим, что в отличие от ЛингвоАнализатора Хмелева, вставить текст с жесткого диска невозможно. Результатом работы Атрибутора оказалась такая запись:

Скорее всего, этот текст принадлежит

М.А.Булгакову.

И после результата предлагается заполнить форму, где можно отметить, правильно ли атрибутор указал автора. В данном случае Атрибутор не ошибся.

Затем попробуем установить автора всё того же произведения М.А.Булгакова «Дьяволиада». Результат:

Скорее всего, этот текст принадлежит

М.А.Булгакову.

В этом случае атрибутор тоже выдал правильный ответ.

Теперь усложним задачу для Атрибутора и скопируем текст из романа Алексея Николаевича Толстого «Аэлита», которого в базе данных этой программы нет. Для этого вставляем всё тот же отрывок, который мы анализировали с помощью ЛингвоАнализатора, и получаем такой результат:

Скорее всего, этот текст принадлежит

А.Н.Толстому.

Атрибутор верно определил автора фрагмента, не смотря на то, что данного произведения в базе данных нет. Но для чистоты эксперимента вставим и другой отрывок этого же автора, который мы анализировали в ЛингвоАнализаторе, — «Гиперболоид инженера Гарина». Результат таков:

Скорее всего, этот текст принадлежит

А.Н.Толстому.

Программа снова правильно смогла определить автора анализируемого фрагмента. Отсюда следует вывод, что Атрибутор работает.

Вывод к эксперименту с Атрибутором

В целом, Атрибутор свою работу выполняет – правильно устанавливает автора текста. И в двух экспериментах с произведениями Михаила Афанасьевича Булгакова и с произведениями Алексея Николаевича Толстого он не сделал ошибки.

Таким образом, к плюсам Атрибутора можно отнести следующие пункты:

• краткость программы;

• программа легка в управлении и не требует каких-либо дополнительных навыков;

• онлайн — программа доступна для всех пользователей сети интернет;

• программа правильно устанавливает авторов, имеющихся в базе данных, даже если самого произведения там нет.

Но у Атрибутора есть и ряд минусов:

• Требуется вставить слишком большой объем текста ( не менее 6 страниц);

• Достаточно небольшой объем базы данных в программе – всего 103 писателя и в основном 19, 20 веков, то есть рассчитывать на то, что Атрибутор установит автора современной литературы практически не имеет смысла;

• Непривлекательный интерфейс;

• Программа не дает дополнительной информации об анализе, к примеру, не выводит процент вероятности написания автором анализируемого текста.

Результаты эксперимента

Результаты экспериментов двух программ совершенно разные. Это мы можем наблюдать в таблице:

Атрибутор результат ЛингвоАнализатор результат

«Мастер и Маргарита» М.А.Булгаков «+» М.А.Булгаков-26% «+»

«Дьяволиада» М.А.Булгаков «+» М.Алферова-21%

*М.А.Булгаков – 18% «-»

«Аэлита» А.Н.Толстой «+» А.Н.Толстой 69% «+»

«Гиперболоид инженера Гарина» А.Н.Толстой «+» Г.Мельников 29% «-»

Таким образом, можно утверждать, что программа Атрибутор справляется с идентификацией авторов анализируемых текстов лучше, чем ЛингвоАнализатор.

Но, в целом, хочется упомянуть, что обе программы разрабатывались довольно-таки давно, и, к сожалению, дальнейшего их серьёзного развития так и не последовало. Интерфейс программ самый простейший, современных писателей в базах данных нет, да и внутреннее устройство программ с момента разработки изменилось незначительно. Если сравнивать эти программы, то различия состоят лишь в том, что:

• ЛингвоАнализатор, в отличие от Атрибутора устанавливает авторов текстов только из жанра фантастики;

• На выходе анализа текста в ЛингвоАнализаторе выступает достаточно подробная информация об авторстве, предлагаются несколько авторов с процентным соотношением вероятности того, что именно им принадлежит анализируемый текст, в то время как Атрибутор выдает результат без каких-либо пояснений;

• В Атрибутор требуется текст не менее 20 Кб, в ЛингвоАнализатор же не менее 10 Кб;

• Различные способы атрибуции: ЛингвоАнализатор учитывает число служебных слов, морфемы слов, сложность грамматических конструкций и словарь, используемый автором; а в Атрибуторе для проведения анализа в качестве индивидуальных черт авторского стиля используются трехбуквенные сочетания – триады.

Вывод к главе 2

После рассмотрения двух программ по установлению авторства текстов удалось выяснить, что они работают, но не всегда результат является корректным. Стоит отметить, что данные программы были разработаны уже более чем десятилетие назад. С тех пор, конечно, наука в данном направлении развивается, и разрабатываются новые системы по идентификации авторства текстов, такие как Стилеанализатор и СМАЛТ.

Проект программного комплекса «СтилеАнализатор», предназначенного для выполнения полного цикла анализа текстов, был начат в 2004 году в Томском государственном университете (ТГУ). С 2005 года разработчики факультета информатики ТГУ стали сотрудничать с группой лингвистов с филологического факультета МГУ им. Ломоносова. Главной целью исследований научного коллектива было выявление набора признаков, которые бы позволяли устойчиво различать стили текстов

Сейчас «СтилеАнализатор» активно используется коллективом лингвистов Лаборатории общей и компьютерной лексикологии и лексикографии МГУ им. Ломоносова.

Проект СМАЛТ предполагает разработку информационной системы «Статистические методы анализа литературного текста», которая в своей основе будет иметь базу данных литературных произведений с морфологическим и синтаксическим параметрами, объемом до 300 текстов из публицистики 60-70 гг. 19 века

Разработка информационной системы будет основана на технологии «Клиент — Сервер» с использованием Интернет технологии. Таким образом, целью данного проекта является представление механизма, который содержал бы многое из того, что необходимо специалисту для проведения исследований по анализу литературных текстов на основе выбранных параметров и статистических методов: БД, содержащая литературные тексты и их морфологические и синтаксические параметры; реализованные в виде программных модулей различные эмпирико-статистические методы для обработки текстов по этим параметрам.

Ещё одна программа, которая незначительно отличается от Атрибутора и ЛингвоАнализатора – «I write like», самое важное отличие, это то, что данная программа англоязычная и рассматривает только английские тексты английских писателей. Разработана эта программа русским программистом Дмитрием Честных. Сайт «I write like» был запущен в 2009 году и к 2010 году стал очень популярным, благодаря возможности опубликовать результат в социальных сетях. Правда, используют данный сайт больше не для определения автора текста, а для своего рода развлечения. Люди пишут в окно программы свои тексты, тексты известных песен и сравнивают их с известными писателями, а затем делятся результатами в сети. Но и данная программа, конечно, далеко не всегда правильно определяет авторов, это отмечает и сам автор разработки и планирует улучшить работу сайта, пополнить базу данных и выводить процентную вероятность схожести текстов с каким-либо автором.

Анализ известных методов определения авторства показал, что пока не существует универсального подхода, обеспечивающего стабильный, достоверный результат. Таким образом, можно сделать вывод, что к настоящему времени на рынке не представлено эффективных программных решений, предназначенных для определения авторства текста.

Однако, на наш взгляд, рассмотренные в данной работе программы могут работать лучше, но для этого должны претерпеть как внешние, так и внутренние изменения. Во-первых, стоит сменить оформление программ, сделать их более привлекательными, более современными. Во-вторых, программе «Атрибутор» требуется раскрывать более подробную информацию о тексте: возможно, выводить процент вероятности авторства текста, выводить название произведения или просто добавить комментарии. Кроме того, база данных программ постоянно должна пополняться. Но и это еще не все. Ученые до сих пор пытаются создать программу, основанную на математическом аппарате и формальных характеристиках текста, но, по нашему мнению, художественный текст, в принципе, не может быть проанализирован на основе исключительно формальных особенностей. Полагаем, что без обработки стиля автора и без знания эпохи написания того или иного произведения, идентифицировать автора с вероятностью близкой к 100% невозможно. Поэтому только в совокупности всех знаний – и математических (сама структура программы), и лингвистических (анализ текста на лексическом, морфологическом, синтаксическом уровнях), и литературных (знание эпохи написания, стилистических особенностей автора) — можно получить универсальную программу, которая действительно сможет идентифицировать автора, не совершая ошибок.

Заключение

Исследователи в установлении авторства текстов в 70х годах прошлого века перешли от субъективных методов атрибуции текстов к формальным методам, основанным на сравнении вычисляемых характеристик текстов. Это и позволило создавать автоматизированные программы, опирающиеся на формальный математический аппарат. Но, как отмечено, и в наше время проблемы программ по атрибуции текстов ещё до конца не решены. Основываться только на формальных характеристиках текста, на наш взгляд, невозможно, так как художественная литература относится к плохоформализуаемым сферам деятельности. Однако можно предположить, что в будущем исследователи смогут создать универсальную систему, но только при соблюдении определенных условий, а именно только при совместной работе человека, компетентного в эпохе написания произведения, являющегося экспертом в стилистических особенностях литературных произведений, лингвиста и математика, который исследует формальные характеристики художественных текстов, может получиться уникальная программа. Но по одним только формальным особенностям, установить автора со 100 % вероятностью практически невозможно. Это можно объяснить довольно сложной структурой литературы, поскольку многие великие писатели начинали свой путь с подражания текстам и стилистике других авторов. К тому же, из истории мы помним, что была цензура, и многие произведения подвергались исправлениям. Отсюда и следуют результаты нашего эксперимента: писатель использует различные средства в разных произведениях, поэтому программа не всегда выдает правильный результат.

Хочется отметить, что проблема авторства очень важна не только в аспекте атрибуции художественных текстов. Требуется устанавливать авторство статей, дневниковых записей, писем, официальных документов, текстов публичных выступлений и тому подобное. Поэтому программ, посвященных атрибуции, появляется все больше: программы, ориентированные на антиплагиат, программы интеллектуального анализа данных, и даже программы, составляющие психологический портрет автора текста. Они используются везде – начиная с литературы и филологии, заканчивая криминалистикой. С развитием интернет-технологий развивается и копирование текстов. Многие люди зачастую присваивают чужие работы, отсюда и возникла потребность в программах по установлению факта плагиата. Существуют автороведческие экспертизы — исследования текста с целью установления авторства или получения каких-либо сведений об авторе и условиях создания текстового документа. В отечественной юридической практике имеется прецедент использования автороведческой экспертизы расшифрованных результатов прослушивания телефонных переговоров. С её помощью в суде доказывали, что зафиксированные при наблюдении за преступниками переговоры действительно вели подозреваемые лица.

Подводя итог всему вышесказанному, следует отметить, что наука в сфере определения авторства активно развивается уже в течение многих лет. Ученые до сих пор ищут пути создания универсальной программы, которая без особых усилий будет идентифицировать автора анализируемого текста. Но, помимо этого, разработки в этой сфере проводятся не только для установления авторов литературных произведений, но и для решения проблемы плагиата, для идентификации мошенников в сети Интернет, которые присваивают чужие научные труды, чужие статьи и записи, и даже для расследований в области криминалистики.

Список используемой литературы

1. Виноградов В. В. Проблема авторства и теория стилей. – М.: Гослитиздат, 1961. – 614 с.

2. Кукушкина О. В., Поликарпов А. А., Хмелëв Д. В. Определение авторства текста с использованием буквенной и грамматической информации// Проблемы передачи информ., 37:2 (2001), с. 96–109

3. Марусенко М.А. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов. – Л. :Ленингр. ун-т, 1990. – 164 с.

4. Морозов Н.А. Лингвистические спектры: Средство для отличения плагиатов от истинных произведений того или другого известного автора : Стилеметрический этюд // Известия Отдела русского языка и словесности Императорской Академии наук. – 1915.

5. Родионова Е.С. Методы атрибуции художественных текстов // Структурная и прикладная лингвистика. – Вып.7: Межвуз.сб.– СПб.: С.- Петерб. Ун-т, 2008. – С. 118–127.

6. Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова//Вестн. МГУ. Сер. 9, Филология. 2000. N02. С.115-126.